标签【ML Basics】 - 码上欢乐

对于训练集，验证集，测试集的概念，很多人都搞不清楚。网上的文章也是鱼龙混杂，因此，现在来把这方面的知识梳理一遍。让我们先来看一下模型验证（评估）的几种方式。在机器学习中，当我们把模型训练出来 ...

TSS: Total Sum of Squares（总离差平方和） --- 因变量的方差 RSS: Residual Sum of Squares （残差平方和） --- 由误差导致的真 ...

线性回归模型比较常见的特征选择方法有两种，分别是最优子集和逐步回归。此外还有正则化，降维等方法。 1，最优子集（Best Subset Selection）：从零号模型（null model） ...

虚拟变量陷阱（Dummy Variable Trap）

虚拟变量陷阱（Dummy Variable Trap）：指当原特征有m个类别时，如果将其转换成m个虚拟变量，就会导致变量间出现完全共线性的情况。假设我们有一个特征“性别”，包含男性和女性两个 ...

超参数（Hyperparameter）

什么是超参数？机器学习模型中一般有两类参数：一类需要从数据中学习和估计得到，称为模型参数（Parameter）---即模型本身的参数。比如，线性回归直线的加权系数（斜率）及其偏差项（截距）都是模型 ...

之前在《训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）》一文中已经提过对模型进行验证（评估）的几种方式。下面来回顾一 ...

自助法（Bootstraping）

自助法（Bootstraping）是另一种模型验证（评估）的方法（之前已经介绍过单次验证和交叉验证：验证和交叉验证（Validation & Cross Validation））。其以自助采样 ...

一，定义异常点（Outlier）：残差很大的点（即：因变量y的值是极端值的观测值）高杠杆点（High Leverage Point）：远离样本空间中心的点（即：自变量x的值是极端值的观测值） ...

因为光看模型在训练集上的表现容易导致过拟合，因此回归模型通常有两种评价方式，一种是看验证/交叉验证的结果，另一种是对训练集上的表现结果进行修正，常见指标有：AIC，BIC，Cp，adjusted R2 ...

特征缩放（Feature Scaling）

特征缩放的几种方法：（1）最大最小值归一化（min-max normalization）：将数值范围缩放到 [0, 1] 区间里（2）均值归一化（mean normali ...